import pandas as pd
import numpy as np
import seaborn as sns
import warnings

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

warnings.filterwarnings('ignore')


try:
    data = pd.read_csv('/datasets/insurance.csv')
except:
    data = pd.read_csv('F:/insurance.csv')


display(data.head(), data.shape,)

(5000, 5)


data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


data.describe()


display(data.corr(), sns.heatmap(data.corr(), annot=True))

<AxesSubplot:>


data.isna().sum()

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64


data.duplicated().sum()

153


data = data.drop_duplicates()
data['Возраст'] = data['Возраст'].astype("int64")
data['Зарплата'] = data['Зарплата'].astype("int64")

((4847, 4), (4847,))

array([[61, 78, 66, 57],
       [96, 25, 62, 81],
       [33,  9, 67, 57],
       [22, 51, 88, 30]])

array([[-0.01671234,  0.02824602, -0.03262188,  0.01747076],
       [ 0.02102849, -0.01135376, -0.00134096, -0.00675118],
       [-0.0169794 ,  0.00747934, -0.0059387 ,  0.02335016],
       [ 0.02631352, -0.02335177,  0.04362251, -0.03649535]])

R2_score: 0.4302010046633

R2_score: 0.4302010046633


data = data.drop_duplicates()
data['Возраст'] = data['Возраст'].astype("int64")
data['Зарплата'] = data['Зарплата'].astype("int64")


features = data.drop(["Страховые выплаты"], axis=1)
target = data["Страховые выплаты"]
features.shape, target.shape

((4847, 4), (4847,))

array([[61, 78, 66, 57],
       [96, 25, 62, 81],
       [33,  9, 67, 57],
       [22, 51, 88, 30]])

array([[-0.01671234,  0.02824602, -0.03262188,  0.01747076],
       [ 0.02102849, -0.01135376, -0.00134096, -0.00675118],
       [-0.0169794 ,  0.00747934, -0.0059387 ,  0.02335016],
       [ 0.02631352, -0.02335177,  0.04362251, -0.03649535]])

R2_score: 0.4302010046633

R2_score: 0.4302010046633


features = data.drop(["Страховые выплаты"], axis=1)
target = data["Страховые выплаты"]
features.shape, target.shape

((4847, 4), (4847,))

array([[61, 78, 66, 57],
       [96, 25, 62, 81],
       [33,  9, 67, 57],
       [22, 51, 88, 30]])

array([[-0.01671234,  0.02824602, -0.03262188,  0.01747076],
       [ 0.02102849, -0.01135376, -0.00134096, -0.00675118],
       [-0.0169794 ,  0.00747934, -0.0059387 ,  0.02335016],
       [ 0.02631352, -0.02335177,  0.04362251, -0.03649535]])

R2_score: 0.4302010046633

R2_score: 0.4302010046633


features = data.drop(["Страховые выплаты"], axis=1)
target = data["Страховые выплаты"]
features.shape, target.shape

((4847, 4), (4847,))

array([[61, 78, 66, 57],
       [96, 25, 62, 81],
       [33,  9, 67, 57],
       [22, 51, 88, 30]])

array([[-0.01671234,  0.02824602, -0.03262188,  0.01747076],
       [ 0.02102849, -0.01135376, -0.00134096, -0.00675118],
       [-0.0169794 ,  0.00747934, -0.0059387 ,  0.02335016],
       [ 0.02631352, -0.02335177,  0.04362251, -0.03649535]])

R2_score: 0.4302010046633

R2_score: 0.4302010046633


features = data.drop(["Страховые выплаты"], axis=1)
target = data["Страховые выплаты"]
features.shape, target.shape

((4847, 4), (4847,))

array([[61, 78, 66, 57],
       [96, 25, 62, 81],
       [33,  9, 67, 57],
       [22, 51, 88, 30]])

array([[-0.01671234,  0.02824602, -0.03262188,  0.01747076],
       [ 0.02102849, -0.01135376, -0.00134096, -0.00675118],
       [-0.0169794 ,  0.00747934, -0.0059387 ,  0.02335016],
       [ 0.02631352, -0.02335177,  0.04362251, -0.03649535]])

R2_score: 0.4302010046633

R2_score: 0.4302010046633


features = data.drop(["Страховые выплаты"], axis=1)
target = data["Страховые выплаты"]
features.shape, target.shape

((4847, 4), (4847,))


matrix = np.random.randint(100,size = (4, 4))
matrix

array([[61, 78, 66, 57],
       [96, 25, 62, 81],
       [33,  9, 67, 57],
       [22, 51, 88, 30]])


matrix_inv = np.linalg.inv(matrix)
matrix_inv

array([[-0.01671234,  0.02824602, -0.03262188,  0.01747076],
       [ 0.02102849, -0.01135376, -0.00134096, -0.00675118],
       [-0.0169794 ,  0.00747934, -0.0059387 ,  0.02335016],
       [ 0.02631352, -0.02335177,  0.04362251, -0.03649535]])


model = LinearRegression(normalize=True).fit(features, target)
predictions = model.predict(features)
r2_score_value = r2_score(target, predictions)
print(f"R2_score: {r2_score_value:.13f}")

R2_score: 0.4302010046633


features_matrix = features.dot(matrix)


model = LinearRegression(normalize = True).fit(features_matrix, target)
predictions = model.predict(features_matrix)
r2_score_value = r2_score(target, predictions)
print(f"R2_score: {r2_score_value:.13f}")

R2_score: 0.4302010046633

	Пол	Возраст	Зарплата	Члены семьи	Страховые выплаты
0	1	41.0	49600.0	1	0
1	0	46.0	38000.0	1	1
2	0	29.0	21000.0	0	0
3	0	21.0	41700.0	2	0
4	1	28.0	26100.0	0	0

	Пол	Возраст	Зарплата	Члены семьи	Страховые выплаты
count	5000.000000	5000.000000	5000.000000	5000.000000	5000.000000
mean	0.499000	30.952800	39916.360000	1.194200	0.148000
std	0.500049	8.440807	9900.083569	1.091387	0.463183
min	0.000000	18.000000	5300.000000	0.000000	0.000000
25%	0.000000	24.000000	33300.000000	0.000000	0.000000
50%	0.000000	30.000000	40200.000000	1.000000	0.000000
75%	1.000000	37.000000	46600.000000	2.000000	0.000000
max	1.000000	65.000000	79000.000000	6.000000	5.000000

	Пол	Возраст	Зарплата	Члены семьи	Страховые выплаты
Пол	1.000000	0.002074	0.014910	-0.008991	0.010140
Возраст	0.002074	1.000000	-0.019093	-0.006692	0.651030
Зарплата	0.014910	-0.019093	1.000000	-0.030296	-0.014963
Члены семьи	-0.008991	-0.006692	-0.030296	1.000000	-0.036290
Страховые выплаты	0.010140	0.651030	-0.014963	-0.036290	1.000000

Содержание

Защита персональных данных клиентов¶

Загрузка данных¶

Умножение матриц¶

Алгоритм преобразования¶

Проверка алгоритма¶

Вывод¶

Чек-лист проверки¶